讲 Harness 怎么设计之前 (。・ω・。)
?
?
?
!
Agent
为什么会失败
?
先搞清楚问题,再设计解决方案 (`・ω・´)
Anthropic
工程师团队总结 (`・ω・´)
三种
典型失败模式 (。・ω・。)
① 一步到位
One-shotting
② 复制传播
Spreading bad patterns
③ 提前收工
Premature completion
失败模式 ①
试图一步到位
一个会话
功能 A
功能 B
功能 C
功能 D
功能 E
功能 F
所有任务
Agent 倾向于在
一个会话里
把所有功能都做完 (`・ω・´)
会发生什么? (。ŏ_ŏ)
一个会话做全部
FULL
!
上下文窗口
耗 尽
没有文档的
半成品代码
?
?
下个会话
只能猜 ?
一条链式反应 → 步步崩塌
最终结果 (。・ω・。)
上下文窗口耗尽
信息溢出,无法继续理解任务 (´;ω;`)
严重
没有文档的半成品
代码写了一半,没人知道意图 (。ŏ_ŏ)
高
下一轮疯狂猜测
新会话启动,Agent 只能猜之前发生了什么 (`・ω・´)
中
失败模式 ① 一句话总结 (。・ω・。)
想做的事
A + B + C + D + E…
上下文窗口
上限
!
? ? ?
半成品 + 无文档
一步到位
→
一步崩盘